未来几年物联网设备计数的预期增加促使有效算法的开发,可以帮助其有效管理,同时保持功耗低。在本文中,我们提出了一种智能多通道资源分配算法,用于Loradrl的密集Lora网络,并提供详细的性能评估。我们的结果表明,所提出的算法不仅显着提高了Lorawan的分组传递比(PDR),而且还能够支持移动终端设备(EDS),同时确保较低的功耗,因此增加了网络的寿命和容量。}大多数之前作品侧重于提出改进网络容量的不同MAC协议,即Lorawan,传输前的延迟等。我们展示通过使用Loradrl,我们可以通过Aloha \ TextColor {Black}与Lorasim相比,我们可以实现相同的效率LORA-MAB在将复杂性从EDS移动到网关的同时,因此使EDS更简单和更便宜。此外,我们在大规模的频率干扰攻击下测试Loradrl的性能,并显示其对环境变化的适应性。我们表明,与基于学习的技术相比,Loradrl的输出改善了最先进的技术的性能,从而提高了PR的500多种\%。
translated by 谷歌翻译
Neuromorphic vision or event vision is an advanced vision technology, where in contrast to the visible camera that outputs pixels, the event vision generates neuromorphic events every time there is a brightness change which exceeds a specific threshold in the field of view (FOV). This study focuses on leveraging neuromorphic event data for roadside object detection. This is a proof of concept towards building artificial intelligence (AI) based pipelines which can be used for forward perception systems for advanced vehicular applications. The focus is on building efficient state-of-the-art object detection networks with better inference results for fast-moving forward perception using an event camera. In this article, the event-simulated A2D2 dataset is manually annotated and trained on two different YOLOv5 networks (small and large variants). To further assess its robustness, single model testing and ensemble model testing are carried out.
translated by 谷歌翻译
Unmanned air vehicles (UAVs) popularity is on the rise as it enables the services like traffic monitoring, emergency communications, deliveries, and surveillance. However, the unauthorized usage of UAVs (a.k.a drone) may violate security and privacy protocols for security-sensitive national and international institutions. The presented challenges require fast, efficient, and precise detection of UAVs irrespective of harsh weather conditions, the presence of different objects, and their size to enable SafeSpace. Recently, there has been significant progress in using the latest deep learning models, but those models have shortcomings in terms of computational complexity, precision, and non-scalability. To overcome these limitations, we propose a precise and efficient multiscale and multifeature UAV detection network for SafeSpace, i.e., \textit{MultiFeatureNet} (\textit{MFNet}), an improved version of the popular object detection algorithm YOLOv5s. In \textit{MFNet}, we perform multiple changes in the backbone and neck of the YOLOv5s network to focus on the various small and ignored features required for accurate and fast UAV detection. To further improve the accuracy and focus on the specific situation and multiscale UAVs, we classify the \textit{MFNet} into small (S), medium (M), and large (L): these are the combinations of various size filters in the convolution and the bottleneckCSP layers, reside in the backbone and neck of the architecture. This classification helps to overcome the computational cost by training the model on a specific feature map rather than all the features. The dataset and code are available as an open source: github.com/ZeeshanKaleem/MultiFeatureNet.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
从同一场景的单个或多个低分辨率图像中获取高分辨率图像的过程对于现实世界图像和信号处理应用非常感兴趣。这项研究是关于探索基于深度学习的图像超分辨率算法的潜在用法,用于为驾驶汽车内车辆驾驶员监测系统产生高质量的热成像结果。在这项工作中,我们提出并开发了一种新型的多图像超分辨率复发性神经网络,以增强分辨率并提高从未冷却的热摄像机捕获的低分辨率热成像数据的质量。端到端完全卷积神经网络在室内环境条件下从刮擦上训练了30个不同受试者的新获得的热数据。热调谐超分辨率网络的有效性已定量验证,以及在6个不同受试者的测试数据上进行定性验证。该网络能够在验证数据集上达到4倍超分辨率的平均峰信号与噪声比为39.24,在定量和质量上都超过了双色插值。
translated by 谷歌翻译
多语言语音识别已引起大幅关注,作为补偿低资源语言数据稀缺性的有效方法。端到端(E2E)建模比常规混合系统优选,这主要是由于没有词典要求。但是,在有限的数据方案中,混合DNN-HMM仍然优于E2E模型。此外,手动词典创建的问题已通过公开训练的素式训练型(G2P)(G2P)和多种语言的IPA音译来缓解。在本文中,在低资源语言的多语言设置中提出了一种混合DNN-HMM声学模型的新型方法。针对目标语言语言信号的不同单语言模型的后验分布融合在一起。为每个源目标语言对训练了一个单独的回归神经网络,以将后者从源声学模型转换为目标语言。与ASR培训相比,这些网络需要非常有限的数据。与多语言和单语基线相比,后融合的相对增益分别为14.65%和6.5%。跨语性模型融合表明,无需使用依赖语言的ASR的后代,就可以实现可比的结果。
translated by 谷歌翻译
多语言自动语音识别(ASR)系统大多受益于低资源语言,但相对于单语言对应物,多种语言的性能下降。有限的研究集中在理解多语言语音识别设置中的语言行为。在本文中,提出了一种新型的数据驱动方法来研究跨语性的声学表达相似性。该技术衡量了各种单语言模型与目标语音信号的后验分布之间的相似性。深度神经网络被训练为映射网络,以将分布从不同的声学模型转换为直接比较的形式。分析观察到,语言接近性无法通过集合音素的体积真正估计。对拟议的映射网络的熵分析表明,具有较小重叠的语言可以更适合跨语性转移,因此在多语言设置中更有益。最后,提出的后验变换方法被利用为目标语言的单语模型融合。比单语言对应物的相对提高约为8%。
translated by 谷歌翻译
本研究专注于评估智能和安全车辆系统的热对象检测的实时性能,通过在GPU和单板边缘GPU计算平台上部署训练有素的网络进行车载汽车传感器套件测试。在充满挑战的天气和环境场景中,获取,加工和开放,包括具有> 35,000个不同框架的新型大规模热数据集。 DataSet是从丢失的成本且有效的未加工的LWIR热敏摄像机,安装独立和电动车辆中的记录,以最大限度地减少机械振动。最先进的YOLO-V5网络变体使用四个不同的公共数据集进行培训,也可以通过采用SGD优化器来实现DNN的最佳通用的本地数据集。培训网络的有效性在广泛的测试数据上使用了各种定量度量来验证,包括精度,召回曲线,平均精度和每秒帧。使用规特相关推理加速器进一步优化YOLO的较小网络变体,明确提高每秒速率的帧。在低功率边缘设备上测试时,优化的网络引擎在低功耗边缘设备上测试时,每秒速率增加3.5倍。在NVIDIA Jetson Nano和60 fps上的NVIDIA Xavier NX Development Landls上实现了11个FPS。
translated by 谷歌翻译
自我监督的预制是自然语言处理模型的首选方法,在许多愿景任务中迅速获得普及。最近,自我监督的预借鉴已经显示出胜过许多下游视觉应用的预测,标志着该地区的里程碑。这种优越性归因于传达多个概念的训练图像的不完全标记的负面影响,而是使用单个主要类标签进行注释。虽然自我监督的学习(SSL)原则上没有这种限制,但促进SSL的借口任务的选择是通过向单个概念输出驱动学习过程来实现这种缺点。本研究旨在调查在不使用标签的情况下建模图像中存在的所有概念的可能性。在这方面,所提出的SSL帧工作MC-SSL0.0是迈向多概念自我监督学习(MC-SSL)的步骤,其超出了在图像中建模的单一主导标签,以有效地利用来自所有概念的所有概念在里面。 MC-SSL0.0由两个核心设计概念,组屏蔽模型学习和学习伪概念,用于使用势头(教师学生)框架的数据令牌。多标签和多类图像分类下游任务的实验结果表明,MC-SSL0.0不仅超越了现有的SSL方法,而且超越了监督转移学习。源代码将公开可供社区培训更大的语料库。
translated by 谷歌翻译
随着计算机愿景中变压器架构的普及,研究焦点已转向开发计算有效的设计。基于窗口的本地关注是最近作品采用的主要技术之一。这些方法以非常小的贴片尺寸和小的嵌入尺寸开始,然后执行冲击卷积(贴片合并),以减少特征图尺寸并增加嵌入尺寸,因此,形成像设计的金字塔卷积神经网络(CNN)。在这项工作中,我们通过呈现一种新的各向同性架构,调查变压器中的本地和全球信息建模,以便采用当地窗口和特殊令牌,称为超级令牌,以自我关注。具体地,将单个超级令牌分配给每个图像窗口,该窗口捕获该窗口的丰富本地细节。然后使用这些令牌用于跨窗口通信和全局代表学习。因此,大多数学习都独立于较高层次的图像补丁$(n)$,并且仅基于超级令牌$(n / m ^ 2)$何处,从中学习额外的嵌入量窗口大小。在ImageNet-1K上的标准图像分类中,所提出的基于超代币的变压器(STT-S25)实现了83.5 \%的精度,其等同于带有大约一半参数(49M)的Swin变压器(Swin-B)和推断的两倍时间吞吐量。建议的超级令牌变压器为可视识别任务提供轻量级和有前途的骨干。
translated by 谷歌翻译